使用环境模型和值函数,代理可以通过向不同长度展开模型来构造状态值的许多估计,并使用其值函数引导。我们的关键识别是,人们可以将这组价值估计视为一类合奏,我们称之为\ eNPH {隐式值合奏}(IVE)。因此,这些估计之间的差异可用作代理人的认知不确定性的代理;我们将此信号术语\ EMPH {Model-Value不一致}或\ EMPH {自给智而不一致。与先前的工作不同,该工作估计通过培训许多模型和/或价值函数的集合来估计不确定性,这种方法只需要在大多数基于模型的加强学习算法中学习的单一模型和价值函数。我们在单板和函数近似设置中提供了从像素的表格和函数近似设置中的经验证据是有用的(i)作为探索的信号,(ii)在分发班次下安全地行动,(iii),用于使用基于价值的规划模型。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
激光加工是一种高度灵活的非接触式制造技术,在学术界和行业中广泛使用。由于光和物质之间的非线性相互作用,模拟方法非常重要,因为它们通过理解激光处理参数之间的相互关系来帮助增强加工质量。另一方面,实验处理参数优化建议对可用处理参数空间进行系统且耗时的研究。一种智能策略是采用机器学习(ML)技术来捕获Picsecond激光加工参数之间的关系,以找到适当的参数组合,以创建对工业级氧化铝陶瓷的所需削减,并具有深层,平滑和无缺陷的模式。激光参数,例如梁振幅和频率,扫描仪的传递速度以及扫描仪与样品表面的垂直距离的速度,用于预测深度,最高宽度和底部宽度使用ML型号雕刻通道。由于激光参数之间的复杂相关性,因此表明神经网络(NN)是预测输出最有效的。配备了ML模型,该模型可以捕获激光参数与雕刻通道尺寸之间的互连,可以预测所需的输入参数以实现目标通道几何形状。该策略大大降低了开发阶段实验激光加工的成本和精力,而不会损害准确性或性能。开发的技术可以应用于各种陶瓷激光加工过程。
translated by 谷歌翻译